大数据分析中最应该避免的一个错误


关于大数据分析的文章有很多,我自己也写了不少,这些文章都围绕着大数据分析能够为公司带来的最终价值来展开。从为线上客户做出的完美商品推荐、无缝票务,到主流航空公司的航线设计、无人驾驶的汽车,大数据的价值和应用看起来是无穷无尽的。但值得记住的是,如果公司内部没有基本的逻辑,如果没有弄清楚应该如何应用大数据架构,这一切都不可能发生。
 
在我所见过的案例中,在各公司尝试将大数据结合到他们的分析流程时,他们最经常犯的一个错误就是误以为大数据可以完全独立运作、提供截然不同的功能。很多公司建立了内部流程,对大数据给予特别的甚至是全部的关注。事实上,有些公司甚至还设立了单独的办公室专门处理大数据企划。这些办公室地处偏远,从地理上切断了和公司其他部门的联系。不幸的是,这种方法正是问题的来源。为了探明这背后的原因,我们就要吸取历史经验的教训。
 
“新”不代表着应该被“孤立地”对待
 
还记得电子商务刚出来的那会儿吗?在早期那些让人头疼的日子里,很多零售商把电商当做和其他零售运作完全不同的渠道来运营。有些零售商建立起了单独的部门、单独的公司、甚至单独的供应链和流程来处理电子商务。他们的问题在于:电子商务虽然是新鲜事物,但它不应该被孤立地对待。
 
事实的确如此,我们从今天往回看,就会发现曾经的那些零售商现在都在寻求统一的业务视图以及线上线下全渠道、各种购物环境无缝对接的客户体验。他们发现新事物不一定要被孤立对待,而今天利用大数据分析技术的我们也同样应该记住这个区别。公司应该把大数据分析和公司其他的数据和分析资产结合起来,建立一个统一的战略,同时利用“大”“小”数据进行运营。

真正的“可拓展性”意味着满足用户多样性
 
在实行时的另外一个陷阱就是“可拓展性”。很多人对大数据的关注点是围绕着数据存储和处理的,也就是关注我们能够处理的数据量和流程量。但不幸的是,这只是可拓展性的两个维度,我们也需要考虑其他的方向。
 
首先,我们要增加用户的数量和类别。员工们需要建立不同的数据视图,随时进行各种类的分析。

其次,我们要测量并发性,即测量有多少用户或应用可以同时获取同一组数据。如果用户和并发性无法被准确测量,就无法为员工支持他们的数据存取需要,也无法通过爬行阻止错误和数据复制的发生。
工作负载管理是另一个需要改善的相关方向。要建立一个能够同时高效管理小型和大型战略性查询的系统,这是一个非常复杂的任务,也很难大规模地发展。

最后,我们常常忽视了将安全协议跟随系统一起升级。在我们有很多用户、很多业务同时访问系统时就更是如此。我们需要足够高级的协议来封锁数据,在需要时控制存取,同时不减缓整体操作。
 
数据、流程、用户、并发性、工作负载管理和安全……这些拓展方向必须从一开始就同时发展。否则我们就只能看到局部的问题,造成有缺陷、不完整的分析格局。